多分类任务评价指标

指标	计算方式	特点说明
微平均精确率	所有类别的TP总和 / (所有类别TP总和 + FP总和)	更关注高频标签表现，受数据分布影响大
微平均召回率	所有类别的TP总和 / (所有类别TP总和 + FN总和)	反映模型对真实正例的整体覆盖能力
微平均F1值	2(微平均精确率微平均召回率)/(微平均精确率+微平均召回率)	综合评估模型在极端多标签场景下的平衡性能

与传统宏平均对比

平均方式	计算逻辑	适用场景	本文选择原因
宏平均	各类别指标独立计算后取算术平均	标签重要性均等	不适用（低频标签过多）
微平均	汇总所有类别统计量后计算全局指标	标签出现频次差异大	更关注高频标签实际影响